基于深度学习原理的“从语音到语言”读书会开讲
导语
在本次活动中,主讲人将带领大家系统性地回顾和介绍语音识别技术的发展历程,从传统的基于HMM模型的识别技术到现今流行的采用神经网络模型的识别技术,希望能够让大家了解语音识别领域。
让机器听懂人话,一直是人工智能研究者们长久以来的梦想。随着深度学习技术的发展,语音识别有了很大的突破。那么,深度学习究竟是怎样解决语音问题的呢?还有哪些问题是目前技术无法解决的呢? 让我们走进本次“ 基于深度学习原理的语音识别简介” 讲座。
讲座须知
活动名称:基于深度学习原理的语音识别简介——暨“从语音到语言”读书会开讲
地点:蕴味儿咖啡
时间:2017年5月30日(周二)下午2:30
主讲人:龚力
费用:讲座免费,收取20元场地费
报名方式:点击阅读原文或者扫描二维码
内容提纲
语音识别的一般背景介绍;
语音识别的基本步骤:
特征提取
声学模型
深度学习语音模型
存在的问题;
业界发展态势。
主讲人介绍
从语音到语言读书会
导语
让机器听懂人话,甚至能够理解人类语言中的深层次含义一直以来都是人工智能研究者们梦寐以求的目标,然而这一目标并没有想象中的那么简单。
尽管随着深度学习技术的普及和应用,语音的识别准确率有了很大幅度的提升,各种语音识别产品也已经走进了我们的生活,但是这一技术并不能完全达到让人满意的水平。例如,当学者们讲课时,经常会把中文和英文掺杂在一起,这给自动语音识别程序增加了巨大的难度。再比如,在一些环境非常嘈杂的地方,机器语音识别的准确度就很低。而且,在一些场合中,我们可能还希望机器能够做到更多。例如,课堂上的课堂笔记自动整理,思维导图的自动生成等等。而这些更高级的需求则显然不是简单的语音识别能够完成的,而是需要强大的自然语言处理技术。
读书会主题
本次读书会的主题就是“从语音到语言”,我们将组织大家一起阅读有关人工智能在语音识别、自然语言理解方面的论文,共同攻克语音的难题。
本次读书会阅读的论文将包括但不限于:
内容:
语音识别技术概览(1次)
系统性的讲述语音识别技术的发展历程,从传统的HMM到现今的神经网络。
一般神经网络语音识别技术 (1~2次)
通过介绍百度的DeepSpeech2技术原理(Toy model版本),了解神经网络语音识别技术的一般处理步骤、可能遇到的问题及解决方案。
End2End模型 (1~2次)
相比其它神经网络架构,End2End未采用传统的CTC作为神经网络的目标函数,而是完全借用机器翻译当中的技术思想,端到端生成。
混合模型(1次)
同样类似于机器翻译领域,如今神经网络语音识别技术也有将传统的技术和神经网络结合在一起的案例。
问题研讨(1次)
是否可能实现word by word的识别;
针对已识别结果,我们可以如何改进,如纠错。
参考论文:
Graves A, Mohamed A, Hinton G E, et al. Speech recognition with deep recurrent neural networks[C]. international conference on acoustics, speech, and signal processing, 2013: 6645-6649.
Amodei D, Anubhai R, Battenberg E, et al. Deep Speech 2: End-to-End Speech Recognition in English and Mandarin[C]. international conference on machine learning, 2015: 173-182.
Alex Graves, Navdeep Jaitly, Abdelrahman Mohamed: Hybird Speech Recognition with Deep Bidirectional LSTM, 2013
Bahdanau D, Chorowski J, Serdyuk D, et al. End-to-end attention-based large vocabulary speech recognition[C]. international conference on acoustics, speech, and signal processing, 2016: 4945-4949.
Jan Chorowski, Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: End-to-end Continuous Speech Recognition using Attention-based Recurrent NN: First Results, 2014
Graves A, Jaitly N. Towards End-to-End Speech Recognition with Recurrent Neural Networks[C]. international conference on machine learning, 2014: 1764-1772.
参与方式
鉴于集智俱乐部该主题的读书会一向很火,预计参与人数会瞬间爆满。为了过滤一些非专业人士,甄选出真正对深度学习感兴趣、有相关研究经验的专业人士,也为激励小伙伴们坚持学习,本期读书会将采取收费 - 退款的保证金模式。
具体规则如下:
1、 读书会(5期)保证金共计500元/人(含每次活动的饮料费)。
2、 满足以下条件的可全额退款:
举办了两次以上分享活动者;
3、满足如下条件之一者可退款80%:
贡献了一次讲座(1个小时以上)内容的(如若讲座需要提前向主持人申请,通过试讲者可演讲);
完成了三篇以上读书笔记写作的(读书笔记标准:字数在4千字并以上,图文并茂,具体请参照此文:自然语言理解与深度学习课堂笔记1
有超额完成上述任务者可考虑全额退款。
4、读书会允许分期参加,单期读书会学费为100元/人,但无法享受退款。
参考资料:
资料
https://www.zhihu.com/question/20398418
http://mp.weixin.qq.com/s/zRyuNtqJksnqTBbr7K1M2A
https://app.yinxiang.com/Home.action#n=01ab4805-539b-4aec-95dd-4a22fbdd973f&t=e04bbfae-5de3-44b6-ba6b-e6f877766c02&ses=4&sh=3&sds=5&
https://www.youtube.com/watch?v=g-sndkf7mCs
https://app.yinxiang.com/Home.action#n=622ecb8f-7784-4153-9438-383634cd1ed8&t=e04bbfae-5de3-44b6-ba6b-e6f877766c02&ses=4&sh=3&sds=5&
https://app.yinxiang.com/Home.action#n=ea612f32-d6c8-4aa6-b0f8-e03e625fb656&t=e04bbfae-5de3-44b6-ba6b-e6f877766c02&ses=4&sh=3&sds=5&
Starter Code
https://github.com/baidu-research/ba-dls-deepspeech
报名方式:
点击阅读原文或者扫描二维码
相关课程
集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!